智能论文笔记

MixMIM: Mixed and Masked Image Modeling for Efficient Visual Representation Learning

Jihao Liu , Xin Huang , Osamu Yoshie , Yu Liu , Hongsheng Li

分类：计算机视觉

2022-05-26

在这项研究中，我们提出了混合图像建模（MixMim），这是一种适用于各种分层视觉变压器的简单但有效的MIM方法。现有的MIM方法用特殊的掩码符号替换输入令牌的随机子集，并旨在从损坏的图像中重建原始图像令牌。但是，我们发现，由于较大的掩蔽率（例如，Beit中的40％），使用蒙版符号会大大减慢训练并引起训练 - 不一致的不一致。相比之下，我们用另一个图像的可见令牌（即创建混合图像）代替一个图像的蒙版令牌。然后，我们进行双重重建以从混合输入中重建原始的两个图像，从而显着提高效率。虽然MixMim可以应用于各种体系结构，但本文探讨了更简单但更强的层次变压器，并使用MixMim -B，-L和-H缩放。经验结果表明，混合mim可以有效地学习高质量的视觉表示。值得注意的是，具有88M参数的MixMIM-B通过预处理600个时期的Imagenet-1k上的TOP-1精度达到了85.1％的TOP-1精度，在MIM方法中为具有可比模型尺寸（例如VIT-B）的神经网络创造了新的记录。此外，其在其他6个数据集上的传输性能显示MixMim比以前的MIM方法更好。代码可从https://github.com/sense-x/mixmim获得。

translated by 谷歌翻译

Discriminability-Transferability Trade-Off: An Information-Theoretic Perspective

Quan Cui , Bingchen Zhao , Zhao-Min Chen , Borui Zhao , Renjie Song , Jiajun Liang , Boyan Zhou , Osamu Yoshie

分类：计算机视觉 | 人工智能

2022-03-08

这项工作同时考虑了典型的监督学习任务中深度表示的可区分性和可传递性属性，即图像分类。通过全面的时间分析，我们观察到这两个属性之间的权衡。随着培训的进展，可区分性不断提高，而转移性在后来的培训期间大大降低。从信息 - 底层理论的角度来看，我们揭示了可区分性和可传递性之间的不相容性归因于输入信息的过度压缩。更重要的是，我们研究了为什么和为什么如何减轻过度压缩的信息，并进一步提出一个学习框架，称为对比度的时间编码〜（CTC），以抵消过度压缩并减轻不相容性。广泛的实验验证了CTC成功缓解了不相容性，从而产生了歧视性和可转移表示形式。在图像分类任务和挑战转移学习任务上实现了明显的改进。我们希望这项工作将提高传统监督学习环境中可转移性属性的重要性。代码可从https://github.com/dtennant/dt-tradeoff获得。

translated by 谷歌翻译

ZeroVL: A Strong Baseline for Aligning Vision-Language Representations with Limited Resources

Quan Cui , Boyan Zhou , Yu Guo , Weidong Yin , Hao Wu , Osamu Yoshie

分类：计算机视觉

2021-12-17

开创性双编码器预训练工作（例如，剪辑并对齐）揭示了与对比学习对齐多模态表示的潜力。然而，这些作品需要大量的数据和计算资源（例如，十亿级Web数据和数百个GPU），这阻止了从再生产和进一步探索的资源有限的研究人员。为此，我们探讨了一堆简单但有效的启发式，并提供了全面的培训指导，使我们能够与有限的资源进行双编码器多模态表示对齐。我们为竞争结果提供可重复的强大基线，即Zerovl，只有1400万公共访问的学术数据集和8 v100 GPU。此外，我们收集100米Web数据进行预培训，而不是最先进的方法实现可比或优越的结果，进一步证明了我们对大规模数据的方法的有效性。我们希望这项工作将为多模态预培训的未来研究提供有用的数据点和经验。我们的代码和预先训练的型号将被释放，以促进研究界。

translated by 谷歌翻译

Local Differential Privacy Image Generation Using Flow-based Deep Generative Models

Hisaichi Shibata , Shouhei Hanaoka , Yang Cao , Masatoshi Yoshikawa , Tomomi Takenaga , Yukihiro Nomura , Naoto Hayashi , Osamu Abe

分类：计算机视觉

2022-12-20

Diagnostic radiologists need artificial intelligence (AI) for medical imaging, but access to medical images required for training in AI has become increasingly restrictive. To release and use medical images, we need an algorithm that can simultaneously protect privacy and preserve pathologies in medical images. To develop such an algorithm, here, we propose DP-GLOW, a hybrid of a local differential privacy (LDP) algorithm and one of the flow-based deep generative models (GLOW). By applying a GLOW model, we disentangle the pixelwise correlation of images, which makes it difficult to protect privacy with straightforward LDP algorithms for images. Specifically, we map images onto the latent vector of the GLOW model, each element of which follows an independent normal distribution, and we apply the Laplace mechanism to the latent vector. Moreover, we applied DP-GLOW to chest X-ray images to generate LDP images while preserving pathologies.

translated by 谷歌翻译

Aging prediction using deep generative model toward the development of preventive medicine

Hisaichi Shibata , Shouhei Hanaoka , Yukihiro Nomura , Naoto Hayashi , Osamu Abe

分类：计算机视觉

2022-08-23

从出生到死亡，由于老化，我们都经历了令人惊讶的无处不在的变化。如果我们可以预测数字领域的衰老，即人体的数字双胞胎，我们将能够在很早的阶段检测病变，从而提高生活质量并延长寿命。我们观察到，没有一个先前开发的成年人体数字双胞胎在具有深层生成模型的体积医学图像之间明确训练的纵向转换规则，可能导致例如心室体积的预测性能不佳。在这里，我们建立了一个新的成人人体的数字双胞胎，该数字双胞胎采用纵向获得的头部计算机断层扫描（CT）图像进行训练，从而从一个当前的体积头CT图像中预测了未来的体积头CT图像。我们首次采用了三维基于流动的深层生成模型之一，以实现这种顺序的三维数字双胞胎。我们表明，我们的数字双胞胎在相对较短的程度上优于预测心室体积的最新方法。

translated by 谷歌翻译

Bridging the gap to real-world for network intrusion detection systems with data-centric approach

Gustavo de Carvalho Bertoli , Lourenço Alves Pereira Junior , Filipe Alves Neto Verri , Aldri Luiz dos Santos , Osamu Saotome

分类：人工智能 | 机器学习

2021-10-25

对于网络入侵检测系统（NIDS）使用机器学习（ML）的大多数研究都使用良好的数据集，例如KDD-CUP99，NSL-KDD，UNSW-NB15和Cicids-2017。在这种情况下，探讨了机器学习技术的可能性，旨在与已发表的基线（以模型为中心的方法）相比的度量改进。但是，这些数据集将一些限制呈现为老化，使得将基于ML的解决方案转换为现实世界的应用程序，这使得它不可行。本文提出了一种系统以系统为中心的方法来解决NIDS研究的当前限制，特别是数据集。此方法生成由最近的网络流量和攻击组成的NID数据集，其中包含设计的标签过程。

translated by 谷歌翻译